使用devstack安装部署OpenStack(据详细手把手教学)

一、环境(1)操作系统:Linux。OpenStack官网推荐使用 Ubuntu-20.04 LTS进行安装OpenStack,所以本教程也以此版本为例。(不推荐使用其他版本,出现错误较多,容易安装失败)(2)虚拟机软件:VirtualBox或者Vmware。虚拟机的内存最好分配 8G 以上(至少4

【用户画像】将数据迁移到ClickHouse(源码实现)、位图的介绍(bitmap)、位图在用户分群中的应用、位图的使用

函数arrayJoin宽表转Bitmap表需要行转列,要用arrayJoin把多列数组炸成行。把聚合列的数字值聚合成Bitmap的聚合函数bitmapAnd求两个Bitmap值的交集bitmapOr求两个Bitmap值的并集bitmapXor求两个Bitmap值的差集(异或)把Bitmap转换成数值

flink checkpoint配置详解

如果都设置了,则代码中会覆盖flink-conf.yaml中的配置代码中设置StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 开启checkpoint 每5

超详细的基于docker搭建hadoop集群

基于Docker搭建Hadoop集群

HDFS的读写流程步骤(附图文解析)

HDFS的写入流程与读取流程,附图文步骤解析

数仓理论及建模方法

1. 数仓概述数据仓库: 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:

Flink on Yarn模式部署

独立(Standalone)模式由 Flink 自身提供资源,无需其他框架,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但我们知道,Flink 是大数据计算框架,不是资源调度框架,这并不是它的强项;所以还是应该让专业的框架做专业的事,和其他资源调度框架集成更靠谱。而在目前大数据生态中,

Superset 安装配置

官网地址Apache Superset 是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。Superset快速,轻巧,直观,并带有各种选项,使各种技能的用户都可以轻松浏览和可视化其数据,从简单的折线图

kafka的副本以及分区与副本的关系

一 副本的作用1.Kafka 副本作用:提高数据可靠性。2.Kafka 中副本分为:Leader 和 Follower。Kafka 生产者只会把数据发往 Leader, 然后 Follower 找 Leader 进行同步数据。读写由leader来完成,follower只备份,和leader同步数据,

HBase 的特点是什么

HBase是一个分布式的、面向列的开源数据库存储系统,具有高可靠性、高性能和可伸缩性,它可以处理分布在数千台通用服务器上的PB级的海量数据。HBase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型。BigTable的底层

Flink内核源码解析(出自B站尚硅谷)

文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提

基于大数据平台的毕业设计

前言最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直接问我要源码的…所以就抽空写一写自己毕业设计的一个思路,大数据是我实习自学的,这个思路是我当初自己想的,就当做一份参考吧。在我毕业那年,同学们毕业设计大多都是以Java语言开发的各种管理系统、xx商城为主,包括我刚开始的

大数据平台性能监控

大数据监控是指通过大数据技术手段获取、收集、分析数据,并能够准确分析信息,有效预测信息发展动态趋势。大数据监控主要围绕着海量全网数据,大多数需要借助监测系统来协助分析数据。PrometheusPrometheus注重于数据存储及分析,存储采集到的监控数据并以metric的形式保存在其中,且能够将数据

利用Python制作动漫人物

利用Python制作动漫人物

HBase基础及shell操作

什么是HBaseHBase是采用java语言编写的一款 apache 开源的基于HDFS的NoSQL型数据库,不支持 SQL,不支持事务,不支持Join操作,没有表关系HBase特点1.不支持事务2.主要存储结构化数据以及半结构化的数据3.​HBase中数据存储都是以字节的形式来存储的4.HBase

什么是集群?看完这篇你就知道了

什么是集群?集群有哪些分类?集群的实现方式有哪些?什么是正向代理、反向代理、透明代理?什么叫集群?多台主机提供相同的服务的一组序列就叫集群简单地说,集群就是指一组(若干个)相互独立的计算机,利用高速通信网络组成的一个较大的计算机服务系统,每个集群节点(集群系统中的单个计算机通常称为节点)都是运行各自

Hive调优及参数优化(详细版)

Hive调优及参数优化,涵盖:基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......

大数据之实时数据分析之Apache Doris数据库

Apache Doris是一款现代 MPP (Massively Parallel Processing大规模并行处理)的分布式 SQL 分析数据库,所谓分析数据库就是将其数据集分布在许多机器或节点上,以处理大量数据,采用 Apache 2.0认证授权。它的前身是原百度 Palo,由百度在2017

Hadoop单机版安装(保姆级教学)

Hadoop单机版(保姆级教学),希望能给你带来帮助。

关于Hive中的存储格式及压缩格式详解

最近面试,遇到了关于Hive的数据存储格式的问题,回答不尽人意,抽时间总结多看看关于Hive存储格式和压缩格式的内容。TEXTFILE 是 Hive 默认文件存储方式,存储方式为行存储,数据不做压缩,磁盘开销大,数据解析开销大,数据不支持分片,数据加载导入方式可以通过LOAD和INSERT两种方式加

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈